时政
财经
科技
虚拟货币
其他
登录
#long CoT
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
8小时前
Deepseek的GRPO(Group Relative Policy Optimization )算法,还是非常有效的long CoT的RL方法,根据最后结果只和之前的相比更趋近目标,就能得到奖励,非常smart,在reward hack和RL效能之间取得平衡。 姚顺雨说起来只是个搞prompt的,用Tree of Search解决NTP基础上的有一定结构的token块的搜索问题。 语言真是太神奇了。符号表征和结构解构能力都有无穷可能。
#DeepSeek
#GRPO算法
#long CoT
#RL方法
#姚顺雨
#Tree of Search
#NTP
#token块搜索
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞